加速生物序列设计的能力可以对医疗领域的进度产生重大影响。该问题可以作为一个全球优化问题,在该问题中,该目标是昂贵的黑盒功能,因此我们可以查询大量限制,并限制较少的回合。贝叶斯优化是解决此问题的原则方法。然而,生物序列的天文范围较大的状态空间使所有可能的序列都在不可行。在本文中,我们提出了Metarlbo,在其中我们通过元强化学习训练自回归的生成模型,以提出有希望的序列,以通过贝叶斯优化选择。我们提出了这个问题,因为它是在上一轮中获取的数据的采样子集引起的MDP分布上找到最佳策略的问题。我们的内部实验表明,与现有强大基准相比,对此类合奏的元学习提供了鲁棒性,可抵抗奖励错误指定和实现竞争成果。
translated by 谷歌翻译